忙碌的早晨,剛到公司,習慣在第一杯咖啡旁試用新工具:把三張旅遊照片丟進一段簡短的文字描述,按下執行,幾秒鐘後,一張在倫敦泰晤士河畔、卻又保持同一位朋友臉部表情與穿著細節的合成照片出現在畫面上——那感覺像是把回憶重新剪輯成電影海報。這不是魔術,而是 Google 新發布的 Gemini 2.5 Flash Image(內部代號「nano-banana 奈米香蕉」)帶來的日常化創作體驗。筆者透過 AIMochi 筆記工具,整理多方公開數據與報導,來看看新模型的最新消息!
簡單來說,Gemini 2.5 Flash Image 是 Gemini 系列在「影像生成與編輯」方向上的重大升級。它結合了多項能力:以自然語言對影像做精準局部變更(例如只去除衣服上的污漬、調整姿勢或改變背景模糊)、把多張圖片「語意融合」成一張新圖,並且在處理人像或寵物時強化「角色一致性」,讓同一個人物在不同生成場景中仍保留相似的五官特徵與風格。這些都是 Google 官方示範的重點功能。
目前使用方式主要有三種管道,分別適合不同程度的使用者與企業:
透過 Google AI Studio(適合創作者與設計師)
選擇 Image 功能模組
上傳圖片或直接輸入文字提示(Prompt)
例如輸入:「把這張相片背景換成落日沙灘」或「將人物的襯衫換成藍色」
幾秒鐘後就能生成對應影像,並可直接下載或進一步修改
透過 Gemini API(適合開發者)
在 Google Cloud Console 建立專案並啟用 Gemini API
使用 Python、Node.js 等 SDK 呼叫 images.generate
或 images.edit
方法
上傳圖片檔(base64 格式)與文字描述,即可得到輸出的影像 URL 或檔案
適合串接到自家 App、網站或自動化影像處理流程
透過 Vertex AI(適合企業與專案團隊)
在 Vertex AI 平台建立模型端點
使用 GUI 介面或 REST API 進行影像生成與編輯
可整合在大型工作流程,例如電商商品圖片批次生成、行銷素材快速製作、甚至 AI 驅動的數位人偶創作
小技巧:Google 也提供 Studio 範本(Templates),像是「角色一致性生成」或「多圖片融合」範例,使用者只需套用範本並修改少量文字,就能快速得到結果,無需從零開始設計 Prompt。
傳統的影像生成模型擅長創造美學或風格化場景,但在「語意與世界知識」的精準掌握上常有不足。Gemini 2.5 Flash Image 的不同點,在於它把 Gemini 的語言與世界知識能力帶入影像模組,讓模型能理解「場景物件的關係」「物理性質(光影、反射)」,以至於更自然地把物件放入場景或改變姿勢,減少語意錯配(例如把冰箱放在海灘上之類的荒謬結果)。官方文件特別強調「native world knowledge」的提升是這一代的關鍵。
電商上架圖像:品牌經理阿翔需要在短時間做出 10 款不同顏色的商品照。他只要上傳一張商品的高解析原圖,再用自然語言指令要求改色或把商品放進不同場景,便能快速得到一致風格的多張素材,省去外拍成本。
廣告創意與視覺稿:影像導演小藍把幾張參考圖丟進 Studio 的「multi-image fusion」範本,生成不同構圖的 mood board,然後標註要保留的角色表情,節省了大量前期試拍成本。
個人與社群創作:小芸把童年照片上色、把旅行照片中的友人換上戲服,創造出既懷舊又新穎的影像故事。這種更貼近記憶的「一致性保留」讓個人敘事變得容易被視覺化。
Google 將 Gemini 2.5 Flash Image 透過多個入口釋出:一方面在 Google AI Studio 提供「build mode」與現成範本,方便設計師或快速原型開發;另一方面透過 Gemini API 與 Vertex AI 提供企業級介面與雲端部署能力。Google 也公開了價格策略(以輸出 token/張圖計價),並與第三方平台(例如 Adobe)合作,讓創作者能在熟悉的工具鏈中使用 Gemini 影像能力。合作案例如 Adobe Firefly 已宣布在其工作流程中整合 Gemini 2.5 Flash Image 的功能。
在生成式 AI 越來越普及的今天,辨識哪些影像是合成的成為關鍵。Gemini 2.5 Flash Image 的一項重要設計是:所有由該模型生成或編輯的影像都會內嵌一個不可見的 SynthID 數位水印,設計上是用於識別影像是否為 AI 生成或曾被 AI 編輯,這一點在官方文件中被明確指出。這類水印能成為未來媒體識別、版權管理與誤導防範的一道技術手段,但也引發了水印抗性、隱私與誤判等技術與社會問題,需要跨領域討論與配套政策。
Gemini 2.5 Flash Image 不是單純的「更漂亮」的生成器;它把語意理解、世界知識與影像編輯結合,使影像創作更具語境感與一致性,並在使用者與平台間建立了新一層的透明化(如 SynthID)。對創作者、企業與政策制定者而言,現在是思考如何把技術能力負責任地整合進日常工作流程與社會治理的關鍵時刻。
以上資訊僅供分享與參考之用,請自行保留獨立判斷。若想快速了解更多資訊,善用 AIMochi 筆記工具,幫我們從海量資料中,梳理出關鍵資訊,讓我們精準掌握重要訊息!